分类目录:《机器学习中的数学》总目录
相关文章:
· 点估计(一):基础知识
· 点估计(二):矩估计
· 点估计(三):极大似然估计/最大似然估计(Maximum Likelihood Estimate,MLE)
· 点估计(四):最大后验估计(Maximum Posteriori Probability,MAP)
前面的文章我们已经讨论了频率派统计方法和基于估计单一值 θ \theta θ的方法,然后基于该估计作所有的预测。另一种方法是在做预测时会考虑所有可能的 θ \theta θ。后者属于贝叶斯统计的范畴。频率派的视角是真实参数 θ \theta θ是未知的定值,而点估计 θ ^ \hat{\theta} θ^是考虑数据集上函数(可以看作随机的)的随机变量。
贝叶斯统计的视角完全不同。贝叶斯统计用概率反映知识状态的确定性程度。数据集能够被直接观测到,因此不是随机的。另一方面,真实参数 θ \theta θ是未知或不确定的,因此可以表示成随机变量。
在观察到数据前,我们将 θ \theta θ的已知知识表示成先验概率分布 p ( θ ) p(\theta) p(θ)。一般而言,机器学习实践者会选择一个相当宽泛的(即高熵的)先验分布,以反映在观测到任何数据前参数 θ \theta θ的高度不确定性。例如,我们可能会假设先验 θ \theta θ在有限区间中均匀分布。许多先验偏好于“更简单”的解。
现在假设我们有一组数据样本
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn,通过贝叶斯规则结合数据似然
p
(
x
1
,
x
2
,
…
,
x
n
∣
θ
p(x_1, x_2, \dots, x_n|\theta
p(x1,x2,…,xn∣θ和先验,可以恢复数据对我们关于
θ
\theta
θ信念的影响:
p
(
x
1
,
x
2
,
…
,
x
n
∣
θ
)
=
p
(
x
1
,
x
2
,
…
,
x
n
∣
θ
)
p
(
θ
)
p
(
x
1
,
x
2
,
…
,
x
n
)
p(x_1, x_2, \dots, x_n|\theta)=\frac{p(x_1, x_2, \dots, x_n|\theta)p(\theta)}{p(x_1, x_2, \dots, x_n)}
p(x1,x2,…,xn∣θ)=p(x1,x2,…,xn)p(x1,x2,…,xn∣θ)p(θ)
在贝叶斯估计常用的情景下,先验开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。相对于最大似然估计,贝叶斯估计有两个重要区别:
- 不像最大似然方法预测时使用 θ \theta θ的点估计,贝叶斯方法使用 θ \theta θ的全分布。例如,在观测到 n n n个样本后,下一个数据样本 x n + 1 x_{n+1} xn+1的预测分布如下: p ( x n + 1 ∣ x 1 , x 2 , … , x n ) = ∫ p ( x n + 1 ∣ θ ) p ( θ ∣ x 1 , x 2 , … , x n ) d θ p(x_{n+1}|x_1, x_2, \dots, x_n)=\int p(x_{n+1}|\theta)p(\theta|x_1, x_2, \dots, x_n)\text{d}\theta p(xn+1∣x1,x2,…,xn)=∫p(xn+1∣θ)p(θ∣x1,x2,…,xn)dθ每个具有正概率密度的 θ \theta θ的值有助于下一个样本的预测,其中贡献由后验密度本身加权。在观测到数据集 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn之后,如果我们仍然非常不确定 θ \theta θ的值,那么这个不确定性会直接包含在我们所做的任何预测中。在前面的文章中,我们已经探讨频率派方法解决给定点估计 θ \theta θ的不确定性的方法是评估方差,估计的方差评估了观测数据重新从观测数据中采样后,估计可能如何变化。对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。当然,积分仅仅是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。
- 先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。对贝叶斯方法的批判认为,先验是人为主观判断影响预测的来源。
当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。
原则上,我们应该使用参数
θ
\theta
θ的完整贝叶斯后验分布进行预测,但单点估计常常也是需要的。希望使用点估计的一个常见原因是,对于大多数有意义的模型而言,大多数涉及贝叶斯后验的计算是非常棘手的,点估计提供了一个可行的近似解。我们仍然可以让先验影响点估计的选择来利用贝叶斯方法的优点,而不是简单地回到极大似然估计。一种能够做到这一点的合理方式是选择最大后验点估计。最大后验估计选择后验概率最大的点:
θ
M
A
P
=
arg
max
θ
log
p
(
θ
∣
x
)
=
arg
max
θ
log
p
(
x
∣
θ
)
p
(
θ
)
\theta_{MAP}=\arg\max_{\theta}\log p(\theta|x)=\arg\max_{\theta}\log \frac{p(x|\theta)}{p(\theta)}
θMAP=argθmaxlogp(θ∣x)=argθmaxlogp(θ)p(x∣θ)
右边的 log p ( x ∣ θ ) \log p(x|\theta) logp(x∣θ)对应着标准的对数似然项, log p ( θ ) \log p(\theta) logp(θ)对应着先验分布。MAP贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。相对于极大似然估计,该附加信息有助于减少最大后验点估计的方差。然而,这个优点的代价是增加了偏差。许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的MAP近似。这个适应于正则化时加到目标函数的附加项对应着 log p ( θ ) \log p(\theta) logp(θ)。并非所有的正则化惩罚都对应着MAP贝叶斯推断。例如,有些正则化可能不是一个概率分布的对数。还有些正则化依赖于数据,当然也不会是一个先验概率分布。MAP贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化。例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。